教学工作的资源分享

基于DTW改进算法的孤立词识别系统仿真与分析[电子科大]

教务系统平台

教务系统平台

2006年第四期

中圈分类编号: TP391.9文献识别码: a文章编号: 1009-2552(2006 ) 04一OO56—04基于DTW改进算法的孤立词识别系统仿真与分析林波、吕明

(电子科技大学电子工程学院,成都610054 )

摘要:传统的DTW算法在进行孤立词语音识别时,侧重于时间规则和语音溺亡4度的计算,而非分析数据的可靠性和有效性。 本文提出了一种改进的端点检测算法,并对其进行了改进DIW算法,在计算机上进行了仿真。 实验结果表明,采用改进的DTW算法有效地缩短了识别时间减少数据量,提高系统性能。关键词:孤立词; 端点检测; DTW; 语音识别

simulationandanalysisofisolatedwordrecognitionsystembasedonimproveddtwalgorithmUN Bo. Lv Ming

(Schoelof口钾DI藏I卫-eerjng,university0fdecscienceandtechnology 0f,che~iu610054,a血闲) ) ) ) )abstract:thetraditionaldtwalgonfl~nfocusesontimewarpingandthecomputationofspeechnlab1Jie -ment,butitdoesnotflmlkeadeepanalysisofthedata.animprovedendpointdetectionalisproposedin this paper.there至uhsfromthesimulationofisolatedwordrecognitionsystemonexa至tershowthatthe嵌入式DTW (odthmcsnreducetherecognizingtimeefectivelyandprovideabetterperformance )。KeywO柚s:isolatedword; 输入检测; DTW; 速度记录引言0

. DTW是时间规则和距离测度的计算相结合的产物的非线性正则化技术[1],利用动态时间伸缩计算法有效地解决了孤立词识别时说话速度的不均匀性问题是语音识别中比较经典的算法。 为了算法由于容易实现,对硬件的要求也不高,所以被广泛用于小说语言中孤立词语音识别与小词汇连接词语音识别系统

我猜对了。 但DTW算法对端点检测的精度依赖性较高很大,而且运算量很大。 笔者对DTW算法进行了深入的挖掘研究提出并同时采用了一种改进的端点检测算法改进的DTW算法进行了仿真。 根据模拟数据,改进的算法能有效地减少和提高识别时间和存储量系统性能。1识别系统设计

基于IT1W算法的孤立词语音识别系统主要语音输入、预处理、端点检测、Mel倒谱特征参数提取、模板匹配、识别结果输出。系统框图如图l所示。一五六一

图1孤立词语音识别系统的构成受理日期: 2005—09—23

简介:林波(1979 (一),男。 电子科技大学信号信息处理专业研究研究生。 研究定向低信噪比下的语音识别技术。维普信息http://www.cqvip.com1.1语音预处理

语音信号的预处理部分主要包括预加重、分帧打开窗户的三个步骤j。预加重通过滤波提高高频分量,消除工频干燥

添麻烦。 用普通的一阶FIR数字滤波器实现,系统函数为:日() ) L(0)接近1 ) (()1) ) )。语音信号具有短时间内平稳的特性,所以可以对话音调信号进行分帧处理。 采用可逐帧移动的有限窗口进行加权方法可以通过在帧间有部分重叠来实现维持’9音频流在帧与帧之间的平滑过渡的连续性。 果实在检查中,帧长为240点,帧移位为8O点,窗函数为汉明窗。1.2一种改进的端点检测算法

传统的端点检测算法采用短时域分析方法,用短时间能量及短时间过零率判断端点,区分头发音区和静音区。 短时间能量的计算基于框架进行,)2)如所示。 短时间过零率是指1帧信号中波形横穿零点的次数、该公式的定义如(3)所示。e(I )=:(n ) )2) ) ) )。一1

z(I )=:I ) )一I ) n1 ) I ) )3) ) ) ) ) )。清音信号有较高的过零率,浊音信号有

因为是高的短时间能量,所以在实用上通常被利用零率检测清音,短时能量检测浊音,两者结合实现端点检测。 上述传统的端点检测算法明显被忽略受清音段短时能量的影响和浊音段的过零率的影响。基于以上思想,笔者提出了一种新的加权方法实现语音端点的可靠检测。 具体方法是对能量量大的浊音信号对短时能量采用大加权系统几口,对短时过零率采用小权重系数b; 关于短时间过零率高的清音段的信号相反,对短时间的能量采取使用小加权系数口,短时过零率采用大加法权重系数6。

教学资源网

教学资源网

d=AE(I ) BZ (I ) )4)在上式中,权重系数0、b的决定非常重要。它根据发音者的性别、年龄、环境等因素的变化而变化化,经多次模拟实验验证,0=0.86,b=O.23端点检测效果好。 _1.3 Mel倒谱分析

语音特征参数提取是语音识别的重要问题,尤其是特征参数的好坏对语音识别精度和识别时间有很大影响施加影响。 研究表明,倒谱特征参数中包含的信息量比其多由于参数多,能够很好地表现声音信号,所以选择逆频谱系统数量作为特征参数有一定的优势。 近年来,一种能源能够充分利用人耳特殊感知特性的参数越来越广泛通用,这是Mel尺度的倒谱参数(MFCC )。 MFCC的计算流程如下。根据式Mel (.工厂)=25951g ) 1f/700 ),实际上把频率标度变换为Mel频率标度。

在Mel频率轴上配置三角形滤波器组,l的个数由信号的截止频率决定。根据语音信号的振幅频谱求出每个三角形的滤波器点击对所有滤波器输出进行对数运算,并离散化余弦变换得到MFCC。

1.4改进的lyrw算法

对各帧语音信号提取MFCC特征参数

随后,它被转换为一组MFCC特征向量。 语音识别使测试语音的该特征向量已经存在于模板库中的语音特征向量进行模式匹配,寻找距离最短的模式把公式作为识别结果。 在用DTW算法进行识别判定情况下,测试语音和参考模式的语音长度不同,需要用DTW动态计算长度不同的两个模式之间的相程度,或称为应变距离。

假设测量对象的语音共享iv帧矢量,参考模板共享如果帧向量和iv一般不等于m,则动态时间规则是搜索寻找时间规则函数=埣(I ),测试向量的时间间轴I被非线性映射到模板的时间轴上,其函数为数量得到满足,d=min:d[t(I ),r )埣(I ) (5) ) ) ) ) ) ) ) ) ) ) ) )。式中,d[t(I ),r ) ) I ) ]是第I帧的测试向量t ) I ).“帧模板向量n(j )之间的距离测度,d为对于最佳时间规则,两个向量之间的匹配路径。 通常,规则函数=1,0 (I )被限制为平行四边形的网络格内,如图2所示。 一边的倾斜度是2,另一边是

倾斜度是1/2。 规则函数的起点为(1,1 ),终点为(n ),m )。 DTW的目的是在这个平行四边形内从起点到终点点寻找具有最小成本函数的规则函数。 这是样本保证了它们之间具有最大的声学相似特性。介绍一种改进的DTW算法。 为了DTW计算法在模板匹配的过程中限定了弯折的倾斜度,所以很多网格点实际上达不到,也就是说是平行四边形以外的格与点对应的帧匹配距离不需要计算。 又没有需要保存所有帧匹配距离矩阵和累积距离矩阵,一五七维普信息http://www.cqvip.comy

m

图2匹配路径约束示意图

每-N个网格点处的匹配计算基于前一列的三个网格。 充分利用以上两个特征就可以发展算法通过改进行,达到减少计算量和存储容量的目的。如图2所示,将实际的动态弯曲分为(1,),(1,Xb )、(渤海) 1,n ),其中,满足式(6)和(7)的最近整数。=标记(2(iv ) ) ) )。Xb=吾(2.7v—M ) ) )。(6) ) )。

(7) ) )。

由此可以得到对和长度的限制条件。 例如

如(8)和(9)所示,在不满足这两个条件的情况下,这两个人的差距太大,无法进行动态折弯匹配。2m-n3(8) )。2n-m2(9) )。

轴上的每个帧不需要与y轴上的每个帧前进比较行,仅与y轴上相邻帧的一部分进行比较。 关于在轴上每前进1帧,比较的y轴上的帧数就不同但是,弯曲特性相同,累计距离按下式实现。d (,y )=d )、y ) min ) d (一)、d (一l,Y—1 ),

d (一一、y一二) ]在轴上每前进一帧,前一列的

由于累积了距离,因此可以分别保存两个列矢量d和d计算上一列的累计距离和当前列的累计距离保存整个距离矩阵。

幼儿园招生

幼儿园招生

2 Madab模拟

本系统的声音数据用Pc录音,用llkHz采集采样频率,16位量化,单声道PCM录音格式。 帧长Nl是240个语音点,帧移位m是8O个点。2.1一种改进的端点检测算法采用前述改进的端点检测算法,首先一五八一

对短时间能量和短时间过零率设置两个阈值。 一个是比较的阈值低,对信号的变化很敏感。 另一个是比较的阈值较高,信号必须达到一定强度,该阈值才能超过度过。 整个端点检测过程分为静音、过渡四个阶段段,语音段,结束。 图3是语音信号“5”的采用传统算法端点检测结果,图4是声音信号"5"的采用变更进入算法后的端点检测结果。 通过对两幅图的比较可以看出,采集使用该改进算法的端点检测结果比较准确,效果更好加分。^.~~.^^_^^呻吟发送1。

通用汽车q墨

图3传统端点检测算法的检测结果/7在、

『 .

图4端点检测算法检测结果的改进2.2一种改进的DTW算法

与通常的实际频率倒谱分析不同,MFCC进行了分析人耳的听觉特性取决于人耳能听到的声音的高低与声音的频率没有线性比例关系。 以Md频率标尺符合人耳的听觉特性。 经过MFCC特征参数在提取之后,每个帧信号形成一个特征向量。识别时,被测试的语音和模板库中的每个模板进行模式匹配,找到距离最小的作为输出结果。 正面1为了测试语音和标准模板库之间的失真测度而采用的算法是传统的DTW算法。 表1中的行表示数字“1~6”的标准模板库。 列表示数字“16”的测试语音。表2是使用改良的DTW算法计算的测试语音维普信息http://www.cqvip.com与标准模板库之间的应变测量。 但是使用改进的DTW算法计算的距离

表1传统肌w算法的测试语音与模板库的距离明显小于传统的DTW算法。 同时在模拟中,钢笔1 2 3 4 5 6人员粗略记录下模拟时间,记录下传统的

139.04446.1261.39276.32225.29165.79 DTW算法对测试语音“1—10”进行Matlab模拟总消耗量2356.2961.407284.45402.79272.41306.87时,约为15.7s,但在改进的DTW算法中使用了约15.7s322.92352.3382.733140.61224.18246.3411.9 s。 比较上述模拟结果可知,采用了改性4380.16462.58146.5874.842482261.7进制的DTW算法优化并有效地减小了匹配后的距离5352.7430624250243171811472222-75系统识别时间和数据存储量,所以在一定程度上进行介绍!三二! (I ) )竺) :竺) :系统性能得到了提高。表2改进1 ) TW算法的测试语音和横板库距离3的结论

3354—————————————一D1w算法比HMM算法运算量小,基于孤立――词汇量小的语音识别系统应用比较广泛。

2284.459.634237.73316.62249.o 2167.72采用改进的DTW算法与传统的DTW算法比较,前3197.13195.o161.o 31157.212 o.o 5124.35者有效地降低了系统识别时间,改善了系统性能。4181.51207.492.43359.375139.14127.38但是由于DTW算法过于依赖于端点检测的精度,5175.41173.79166.66245.6691.624116.46同时计算量比VQ算法大,所以DTW算法还有很多6163.08304.67185.91249.64131.6187.939需要改进和提高的地方。参考文献:对比两表数据,发现条件完全相同[1]胡航.语音信号处理[M] .哈尔滨:在哈尔滨工业大学出版社以下,采用传统的DTW算法和改进的D2rw算法,语音样本2ooo:167—169。

本“1~6”均与模板库中的模板“1~6”有最小距离[2]赵力语音信号处理[M]北京:机械工业出版社,2O13:31—45。因此,具有良好的相似性,即都得到了良好的识别[ ] tfqila1'- speechi葡萄ng[M]效果。 唱 2李子30光

同调辉

(上55页)人工神经网络、循环统计量等新理论新方法用于均衡技术n,不断设计新的更好的性能均衡器。参考文献:

[1] QiuT,FangH,zhad.cappropertiesofthegeneralizedcmainalphastablenoiseenvironment.seventhinternationalcmlfrenceanSila1p至ing [ c ].IC sp2004,2004:439-442。[2] Fa'doganAT,kizilkalec.fastandlowcomplexityblindequalizationviasubgradientprojections [ j ].ieetransactionsolsj报酬Proce—ssing,2005,53 (7) 2513—2524。[3]张贤达,铮.通信信号处理[M] .北京:国防工业出版社2o[]0。

[4] BeforeCA,parkjrjh.decisionfeedbackequalinttion [ j ].proc。1979年。 67(8) 1143— 1156。[5] satey.amethodofself—recoveringequalizationformultilevelamplirude—modulation systems [ j ].IEEE tram.oncomm .110(六) 679—682。[6] GodardD,self—recoveringequalizationandcan ' iertrackingintwodimensionaldatacommunicationsystems [ j ].IEEE till/is.0flcomm . 1980,28 (11 ) 1867—1875。[7] Hauimko~D,nikia SLC.blindequalizationusingatrieepstnnn -based8lt }n [ j ].IEEE tram.onc0til ii1.1991,39 (5):669—682。[8] DehertyJ,porayathr.arobustechocaneelexforacolstieenvironn (s [ j ].IEEE trans.oncircuitsandsrstem (,1997398。[9] ssy.kj.frequency—domainandmultimteadaptivefiltering [ j ]。IEEE之类的pweessingnmg ne,1992,9 (1):14—39。[10] MbonpM,BonnetM,bers hadn.lmscoupledadaptiveprediction

andsystemidentification:astatisticalmoddandtransient】em at~lysis[J].IE盘Tram.Onsign~prec~ins,1994,42:2fw[ 11 ] gten fi至G0,BerberidlsK,31 aeodmdiss.f.~ dentleastsquares一five出t )mforfirtmasversalm时吨(j ).IEEETram.onCanto .1980.o一28:1867至1875。

[12] ParlsiR,ClmdioED,OrlandiG,et81.Fast,ie dii至lualizationby ) TNnetworks[j].IEEEm0nsonsi处理,1997,45 (11 ) 2731—2739。[13] H血曲ak0eD.N【飞景T rm尚p】I有chsnn~deeonvehtion l娼iI1gthe - )有p LEEP~trumdthecyclicallt 0cDM [ j ].tram.MSI考试Pr ng,1994,42 (11 ) 3026—3042。责任编辑:张荣香一五九

维普信息http://www.cqvip.com

随机看看

NEW ARTICLE

标签

Tag